22 research outputs found

    Individualized HRTFs From Few Measurements: a Statistical Learning Approach

    No full text
    ©2005 IEEE. Personal use of this material is permitted. However, permission to reprint/republish this material for advertising or promotional purposes or for creating new collective works for resale or redistribution to servers or lists, or to reuse any copyrighted component of this work in other works must be obtained from the IEEEInternational audienceVirtual Auditory Space (VAS) refers to the synthesis and simulation of spatial hearing using earphones and/or a speaker system. High-fidelity VAS requires the use of individualized head-related transfer functions (HRTFs) which describe the acoustic filtering properties of the listener's external auditory periphery. HRTFs serve the increasingly dominant role of implementation 3-D audio systems, which have been realized in some commercial applications. However, the cost of a 3-D audio system cannot be brought down because the efficiency of computation, the size of memory, and the synthesis of unmeasured HRTFs remain to be made better. Because HRTFs are unique for each user depending on his morphology, the economically realist synthesis of individualized HRTFs has to rely on some measurements. This paper presents a way to reduce the cost of a 3-D audio system using a statistical modeling which allows to use only few measurements for each user

    A comparative study of spherical microphone arrays based on subjective assessment of recordings reproduced over different audio systems

    No full text
    International audienceThis study presents an evaluation of sound recordings acquired with two rigid spherical microphone arrays of the exact same size fitted with different type of capsules. These two sets of capsules were of small and large membrane sizes respectively. Objective evaluation has been previously performed by the authors by analyzing the reconstructed spherical harmonic components. Listening tests are conducted to evaluate the perceived quality of the signals acquired with the two arrays and indicate the possible degradation due to the signal processing techniques used to calculate the spherical harmonic components. The subjective evaluation has indicated a slight but significant preference on the array with the large membrane sensors

    Does capsule quality matter? A comparison study between spherical microphone arrays using different types of omnidirectional capsules

    No full text
    7 pagesInternational audienceThis study presents an objective comparison between two rigid spherical microphone arrays of the exact same size but differing by the type of capsules. An analysis of the simulations and the encoding process is presented and known limitations of the spherical arrays are discussed such as the degraded reconstruction of the spherical harmonics due to the size of the sphere and the size and number of the capsules

    Restitution sonore spatialisée sur une zone étendue: Application à la téléprésence

    No full text
    This Ph.D. Thesis deals with 3D sound reproduction system designed for video conferencing applications. Since video conferences are addressed to several listeners, the listening area must be wide and this requirement has determined all the choices made in this study. After an overview of 3D sound reproduction methods (stereophony, binaural technologies, ambisonic...) whose relevance for video conferencing has been checked, an holophonic approach is preferred, because it is the only solution which ensures an extensive listening area. Consequently a prototype of a holophonic system has been designed and implemented for video conferencing. From a theoretical point of view, holophony is based on the Huygens' Principle. It defines the acoustical equivalent to holography and consists in repro ducing a soundfield from a recording over a surface. Practically the soundfield is recorded by a microphone array and reproduced by a loudsp eaker array of identical geometry. The Wavefield Synthesis concept, which has been developed at the Acoustic Laboratory of the DUT (Delft University of Technology) represents one example of such holophonic system. The prototype which has been designed during this thesis, is largely drawn from the Wavefield Synthesis concept. Particularly simplifications, which have been pointed out at the DUT in order to reduce the size of the transducer array and the number of transducers involved in the sound pick-up and reproduction, are used. Nevertheless it was intended to go deeply into the holophonic theory, thus the questions of spatial sampling and spatial truncature have been analysed in detail. The holophonic system finally obtained is composed of a loudspeaker array, which is driven by a DSP. It has b een measured and validated both in an anechoic environment and in an experimental video conferencing studio. Besides the implementation of a 3D sound reproduction system for video conferencing, the second purpose of this thesis aimed at a deep understanding of the sound spatialization process from the general approach defined by holophony. It has been reached by linking ambisonic and holophony. Indeed it has been shown that, far from being two opposite methods, ambisonic and holophony are fundamentally based on a similar process. Moreover ambisonic must be considered as a particular case of holophony. From this result, an unified approach of soundfield reconstruction has been derived, which has led to a straightforward comparison of the spatial encoding and decoding of the two methods. It was concluded that ambisonic is very attractive from a theoretical point of view, but unfeasible, so that holophony should be preferred in practice.Le travail de thèse qui est rapporté dans le présent document a porté sur la réalisation d'un système de restitution sonore spatialisée pour la visioconférence. La principale contrainte de ce projet a résidé dans la taille de la zone d'écoute qui doit être sufisamment grande pour englober plusieurs auditeurs simultanément. Chaque auditeur doit également pouvoir se déplacer au sein de la zone d'écoute. A l'issue d'un tour d'horizon des différentes méthodes de spatialisation sonore existantes (stéréophonie, techniques binaurales, système ambisonique...) dont la pertinence a été examinée du point de vue du contexte de visioconférence, une approche holophonique a été finalement choisie. Attendu qu'elle s'avère être la solution la plus pertinente pour obtenir une zone d'écoute étendue. Un prototype de système holophonique pour la visioconférence a ainsi été conçu et réalisé. D'un point de vue théorique, l'holophonie dérive du Principe de Huygens. Elle constitue l'équivalent acoustique de l'holographie et consiste à reproduire un champ sonore à partir d'un enregistrement sur une surface. Sur la plan pratiqu, le champ sonore est enregistré par un réseau de microphones auquel on substitue un réseau de haut-parleurs de géométrie identique à la restitution. Le concept de Wavefield Synthesis qui a été mis au point à l'UTD (Université Technologique de Delft) définit un exemple de mise en oeuvre d'un système holophonique. Le prototype qui a été développé au cours de cette thèse s'en est largement inspiré. En particulier les simplifications mises en évidence à l'UTD, principalement afin de réduire la taille du réseau de transducteurs et leur nombre, ont été retenues. On a néanmoins eu le souci constant d'analyser la pertinence de la démarche menée à l'UTD et de l'approfondir. Ainsi les questions de l'échantillonnage spatial et de la troncature du réseau de transducteurs ont fait l'objet d'études spécifiques. Au final, le système holophonique qui a été mis au point se compose d'une antenne de haut-parleurs pilotés par une carte DSP. Il a été validé à la fois en environnement anéchoïque et dans un studio expérimental de visioconférence. Au delà de la réalisation d'un système de spatialisation sonore pour la visioconférence, le second objectif de cette thèse visait une meilleure compréhension des procédés de spatialisation sonore à partir de l'approche générale que définit l'holophonie. Cet objectif a été atteint en reliant le système ambisonique à l'holophonie. Il est montré que, loin de constituer deux méthodes distinctes, les systèmes ambisonique et holophonique sont fondés sur des processus analogues et qu'en réalité, le système ambisonique est un cas particulier de l'holophonie. De ce résultat, un formalisme unifiée de la reconstruction de champ sonore a été dégagé, il permet une comparaison directe des performances des deux méthodes, en termes d'enco age et de décodage de l'information spatiale du champ sonore. Il en ressort que, bien que le système ambisonique soit très séduisant sur le plan théorique, il se heurte à de nombreux problèmes de mise en œuvre. Par suite, l'holophonie reste la méthode la plus robuste sur le plan pratique

    Représentation et perception des espaces auditifs virtuels

    No full text
    A Virtual Auditory Space (VAS) is a virtual sound scene which is composed of several sound sources which only exist in the perceptive space of the listener. This space is created by technologies of sound spatialization (such as : stereophony, binaural technology, Wave Field Synthesis or Higher Order Ambisonics) which relies on models for representing the sound scene. Modelling is the first issue to be investigated : it concerns the steps of recording and rendering the spatial information. The concept of spatial audio format (as well as the related topics concerning format adaptation and spatial audio coding) is implicit. The opposite issue is the perception of the VAS, i.e. how the listener perceives the virtual sound sources. This document provides food for thought about all these issues. In addition to an overview of current knowledge, two questions are examined in details. The first question concerns spatialization technologies for multi loudspeaker array, focussing on Wave Field Synthesis (WFS) and Higher Order Ambisonics (HOA). It is shown how to derive feasable systems from the theoretical equations. A unified description allows one to point out the convergence between the two technologies and opens a comparative study. The second question deals with the adaptation of sound spatialization to individual (i.e. mono listener) and handheld devices, which implyies rendering over headphones. It is based on binaural technology which consists in reproducing the acoustic signals at the entrance of the listener's ear. This technology relies on the reproduction of the localization cues which result from the interaction of the acoustic wave with the listener's body and are therefore strongly individual. It is presented how to model these localization cues, considering the temporal information (i.e. Interaural Time Difference or ITD) and the spectral information (i.e. the Spectral Cues or SC), and how to customize them for one particular individual.Un espace auditif virtuel (par référence à l'acronyme anglais VAS pour Virtual Auditory Space) est une scène sonore virtuelle constituée d'un ensemble de sources sonores qui n'existent que dans l'espace perceptif de l'auditeur. Cet espace est généré au moyen des technologies de spatialisation sonore (telles que : stéréophonie, technologie binaurale, Wave Field Synthesis ou Higher Order Ambisonics) qui reposent sur des modèles de représentation de la scène sonore. La modélisation est le premier aspect à étudier et concerne notamment les étapes de la captation et de la restitution de l'information spatiale. La notion de format audio spatialeé (et par la même les questions de conversion de format et de compression) est implicite. A l'autre extrémité se situe la perception de l'espace ainsi généré pour évaluer comment l'auditeur perçoit les sources sonores virtuelles. Ce mémoire ouvre une réflexion sur ces différentes problèmatiques. En complément d'un état des lieux des connaissances actuelles, deux questions sont traitées en détails. La première question porte sur les technologies de spatialisation multi haut-parleurs en se focalisant sur les technologies Wave Field Synthesis (WFS) et Higher Order Ambisonics (HOA). Il est montré quel(s) système(s) concret(s) peuvent être mis en oeuvre à partir des équations théoriques. Grâce à un formalisme unifié les convergences entre les deux technologies sont mises en évidence, pour ouvrir sur une évaluation comparée. La seconde question concerne l'application de la spatialisation sonore à des terminaux individuels (c'est à dire mono auditeur) et portables, impliquant de façon préférentielle un rendu sur casque. Il s'agit du domaine de la technologie binaurale qui consiste à reproduire les signaux acoustiques à l'entrée des conduits auditifs. Cette technologie repose principalement sur la reproduction des indices de localisation qui résultent de l'interaction des ondes acoustiques avec le corps de l'auditeur et sont par la même fortement individuels. Il est décrit comment modéliser ces indices (notamment les informations temporelles correspondant à l'Interaural Time Difference ou ITD et les informations spectrales associées aux Indices Spectraux ou IS) et comment individualiser cette modélisation

    De la recherche en acoustique dans les télécoms : Acoustics reloaded

    No full text
    Cette conférence vise à illustrer la diversité de la recherche acoustique dans les télécommunications à travers mes propres travaux, en montrant comment les évolutions technologiques ont enrichi les thèmes de recherche. Axées originellement sur les communications vocales, les télécommunications ont longtemps considéré l’acoustique comme un domaine majeur (codage, reconnaissance automatique ou synthèse de la parole). Un équipement emblématique est la chambre sourde du site d’Orange à Lannion. Une première évolution est l’introduction du son 3D, d’abord pour la visioconférence avec le concept de téléprésence, puis pour l’enrichissement des contenus de type radio, télévision, VOD, ou des jeux vidéo. Des antennes de haut-parleurs, ou de microphones, ont été déployées pour mettre en oeuvre des systèmes « holophoniques » ou « ambisoniques ». Les interactions entre son et image 3D ne sont pas oubliées. A la fin des années 2000, les smartphones envahissent nos vies et entraînent indirectement l’adoption massive du casque d’écoute qui ouvre la voie au son 3D binaural. L’individualisation des filtres binauraux liés à la morphologie de l’auditeur, principal frein à une diffusion grand public, suscite alors de nombreuses recherches. Après le développement des technologies de spatialisation sonore, leur évaluation perceptive est abordée. En complément des méthodes classiques, des approches innovantes issues des neurosciences sont explorées en cherchant des indicateurs de l’immersion sonore dans l’activité cérébrale. La dernière évolution est l’usage de l'acoustique comme capteur universel pour l'internet des objets. Tout objet (électro-ménager, voiture, bâtiment, …) peut devenir communiquant, et écouter son environnement pour y détecter des informations ou des événements grâce à des modèles de reconnaissance automatique de sons à base de réseaux de neurones. Les applications vont de la sécurité et l’assistance aux personnes à la mesure acoustique de biodiversité. Les interactions avec l’environnement sont aussi revisitées avec la commande mentale où l’acoustique aura peut-être son mot à dire

    Subjective assessment of microphone arrays for spatial audio recording

    No full text
    International audienceMicrophone arrays are still designed for sound recordings devoted to multichannel applications. Some of them are based on empirical principles inherited from the stereophonic recording techniques and extended to 5.1 restitution setups. These systems are mainly non-coincident microphone arrays for which one single microphone is generally assigned to one of the five channels. Other techniques (e.g. Ambisonics) rely on the exact representation on the sound field. Although these systems are aiming at reproducing the original sound scene in the most exact way, some timbre problems have been sometimes reported. This paper is aimed at comparing four microphone arrays (two of each kind) from global preference and four verbal attributes known to underlie the spatial audio quality. The four microphone arrays were assessed by expert and naive listeners

    Listening Room Compensation for Wave Field Synthesis. What Can Be Done?

    No full text
    cote interne IRCAM: Corteel03aNone / NoneNational audiencenteraction of a reproduction system with the listening room introduces distortions of the audio content. This paper aims at pointing out the key points that have to be addressed for compensating the listening room effect. It will be focussed on the particular case of sound reproduction using Wave Field Synthesis (WFS). As a volume solution, WFS reproduces a given sound _eld within an extended area covering the whole listening room, which means that room compensation can't be considered anymore for a limited set of individual positions. Therefore solutions for achieving efficient processing within an extended area will be proposed

    Validation théorique de la correction des réflexions sur la base d'une représentation en harmoniques sphériques.

    No full text
    National audienceA l'heure de l'introduction dans le grand public de systèmes de spatialisation permettant d'aller plus loin que les systèmes stéréophoniques classiques, il apparaît que les perturbations dues au lieu d'écoute augmentent de façon non-linéaire avec le nombre de haut-parleurs. En effet, les interférences et le jeu des réflexions sur les murs peuvent engendrer des incohérences entre la localisation cible et la localisation effectivement perçue des sources virtuelles. La robustesse au positionnement des haut-parleurs devient également critique. Les solutions classiques actuelles de correction de systèmes acoustiques consistent généralement en une inversion canal par canal des réponses impulsionnelles, associée à un filtrage permettant la correction. D'autres études ont été menées afin de créer un environnement actif, mais cela nécessite le fonctionnement permanent de nombreux microphones. L'étude présentée vise, aux travers de simulations, à valider deux étapes d'une nouvelle méthode. En utilisant une décomposition du champ sonore sur une base d'harmoniques sphériques, on acquiert dans un premier temps les propriétés acoustiques du lieu à corriger par une mesure de réponse impulsionnelle. Ces mesures nous permettent de séparer la réponse directe du système et sa réponse réverbérée. Dans un premier temps, la réponse directe permet de corriger les éventuels défauts de position, ainsi que de lisser les réponses en fréquence. Ensuite, une stratégie de contrôle des réflexions est mise en œuvre en utilisant le réseau existant de haut-parleurs afin de synthétiser des sources virtuelles en opposition de phase aux positions des sources images
    corecore